【20220705】文献翻译

您所在的位置：网站首页 › for certain翻译 › 【20220705】文献翻译

【20220705】文献翻译

2023-07-06 14:53| 来源: 网络整理| 查看: 265

MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis 摘要1. 简介2. 相关工作2.1 多模态情绪分析2.2 多模态表征学习 3. 方法3.1 任务设置3.2 MISA3.3 模态表征学习3.4 模态融合3.5 学习3.5.1 Lsim--相似度损失3.5.2 Ldiff - 差异损失3.5.3 Lrecon - 重构损失3.5.4 Ltask - 任务损失 4. 实验5. RESULTS AND ANALYSIS

摘要

多模态情感分析是一个活跃的研究领域，它利用多模态信号对用户生成的视频进行情感理解。处理这一任务的主要方法是开发复杂的融合技术。然而，信号的异质性造成了分布式模态的差距，构成了巨大的挑战。在本文中，我们旨在学习有效的模态表征以帮助融合过程。我们提出了一个新的框架，MISA，它将每个模态投射到两个不同的子空间。第一个子空间是模态不变的，不同模态的表征学习它们的共性并减少模态差距。第二个子空间是模态专用的，它是每个模态所特有的，并捕捉到它们的特征。这些表征提供了一个多模态数据的整体视图，它被用于融合，导致任务预测。我们在流行的情感分析基准、MOSI和MOSEI上的实验表明，与最先进的模型相比，有明显的收益。我们还考虑了多模态幽默检测的任务，并在最近提出的UR_FUNNY数据集上进行实验。在这里，我们的模型也比强大的基线表现得更好，确立了MISA作为一个有用的多模态框架。

关键词：多模态情绪分析，多模态特征学习

1. 简介

随着用户生成的在线内容（如视频）的大量出现，人类口语的多模态情感分析（MSA）已成为一个重要的研究领域[33, 45]。与传统的情感学习任务不同，多模态学习利用多个信息源，包括语言（文本/抄本/ASR）、音频/声学和视觉模式。MSA中的大多数方法都围绕着开发复杂的融合机制，从基于注意力的模型到基于张量的融合[41]。尽管有这些进展，这些融合技术经常受到异质模态之间持续存在的模态差距的挑战。此外，我们希望融合互补的信息，以尽量减少冗余，并纳入多样化的信息集。帮助多模态融合的一个方法是首先学习能够捕捉这些理想特性的潜在模态表征。为此，我们提出了MISA，一个新颖的多模态框架，它为每种模态学习因数化的子空间，并提供更好的表示作为融合的输入。

受最近在领域适应方面取得的进展[5]的启发，MISA为每种模式学习了两种不同的语料表示。第一个表征是模态不变的，旨在减少模态的差距。在这里，一个语篇的所有模态都被映射到一个共享的子空间，并进行分布式调整。虽然多模态信号来自不同的来源，但它们有共同的动机和说话者的目标，这对语篇的整体情感状态负责。不变映射有助于捕捉这些潜在的共性和相关的特征，作为共享子空间上的对齐投影。大多数先前的工作在融合之前没有利用这种对齐，这给他们的融合带来了额外的负担，以弥合模态差距和学习共同特征。

除了不变子空间外，MISA还学习每个模态所特有的特征，这些特征是每个模态所独有的。对于任何话语，每个模态都拥有独特的特征，包括对说话人敏感的风格信息。这种特异性的细节往往与其他模态不相关，被归类为噪音。然而，它们在预测情感状态方面是有用的–例如，说话者的讽刺倾向或偏向于情感极性的特殊表达。因此，学习这种特定模式的特征，可以补充不变空间中捕获的共同潜在特征，并提供一个全面的语篇多模式表示。我们建议使用这套完整的表征进行融合（见图1）。

Figure 1

为了学习这些子空间，我们结合了各种损失，包括分布相似性损失（针对不变特征）、正交损失（针对特定特征）、重建损失（针对模式特征的代表性）和任务预测损失。我们在两个流行的MSA基准数据集–MOSI和MOSEI上评估我们的假设。我们还检查了我们的模型对另一个类似任务的适应性–多模态幽默检测（MHD），在那里我们评估了最近提出的UR_FUNNY数据集。在所有这三种情况下，我们都观察到了超过最先进模型的强大收益，突出了MISA的功效。

本文的新贡献可以概括为：

我们提出了MISA–一个简单而灵活的多模态学习框架，强调多模态表征学习作为多模态融合的前奏。MISA学习模态不变量和特定模态的表征，对多模态数据给出一个全面的、分解的观点，从而帮助融合预测情感状态。在MSA和MHD任务上的实验证明了MISA的威力，所学的表征帮助一个简单的融合策略超越了复杂的最先进的模型。 2. 相关工作 2.1 多模态情绪分析

MSA的文献可以大致分为：(𝑖)语篇级(Utterancelevel)(𝑖𝑖)语篇间语境模型。语篇级的算法考虑的是孤立的目标语篇，而上下文的算法则是利用整个视频中的相邻语篇。

语篇层面。这一类的拟议工作主要集中在使用复杂的融合机制学习跨模式的动态。这些工作包括各种方法，如多核学习[42]，和基于张量的融合（包括其低秩变体）[15, 21, 26, 29, 31, 58]。虽然这些工作对语料的表示进行了融合，但另一线工作采取了细粒度的观点，在词的层面上进行融合。这些方法包括多模态感知的词嵌入[56]、递归多阶段融合[24]、基于图的融合[30, 60]、递归网络（RNN）、注意力模型、记忆机制和基于转化器的模型[8, 46, 46, 52, 56, 59-61]。

口语间语境。这些模型利用目标语词的周围语词的语境。它们被设计成分层网络，在较低层次上对单个语料进行建模，在第二层次上对语料间的顺序信息进行建模。Poria等人提出了最早的模型之一，bc-LSTM，它利用这种设计和双向LSTM进行语料间表示学习，将整个问题框定为结构化预测（序列标记）任务[44]。后来的工作涉及利用注意力[7, 17, 43]、分层融合[32]改善融合，或开发更好的上下文建模[2, 6, 7, 16]。

我们的工作与这些现有的工作有根本的不同。我们不使用上下文信息，也不关注复杂的融合机制。相反，我们强调在融合之前进行表征学习的重要性。然而，如果需要的话，MISA可以灵活地纳入上述内容。

2.2 多模态表征学习

共同子空间表征。试图学习跨模态共同子空间的工作可以大致分为以下几类。(𝑖) 基于翻译的模型，使用序列到序列[40]、循环翻译[39]和对抗性自动编码器[30]等方法将一种模式翻译成另一种模式。(𝑖𝑖)基于相关的模型[50]，使用Canonical Correlation Analysis[3]学习跨模态的相关性；(𝑖𝑖𝑖)学习一个新的共享子空间，所有模态同时被映射，使用诸如对抗性学习[35, 37]等技术。与第三类相似，我们也学习共同的模态不变量子空间。然而，我们不使用对抗性判别器来学习共享映射。此外，我们纳入了正交的特定模态表征–这是在多模态学习任务中较少探讨的特征

因子化表征。在子空间学习的体系中，我们将重点转向因子化表征。虽然有一项工作试图学习多模态数据的生成-鉴别因子[51]，但我们的重点是学习模态不变的和特定的表征。为了实现这一目标，我们从共享-私有表征的相关文献中获得了灵感。

共享-私有[5]学习的起源可以在多视角成分分析中找到[48]。这些早期的工作设计了具有独立的共享和私有潜变量的潜变量模型（LVMs）[9]。Wang等人[55]通过提出一个概率CCA–深度变异CCA，重新审视了这个框架。与这些模型不同的是，我们的建议涉及到一个鉴别性的深度神经架构，避免了对近似推理的需求。

我们的框架与领域分离网络（DSN）[5]密切相关，后者提出了领域适应的共享-私有模型。DSN对多任务文本分类等领域的类似模型的发展有很大影响[25]。尽管我们从DSN获得灵感，但MISA包含关键的区别：(𝑖)DSN学习跨实例的因素化表征，而MISA学习实例（语篇）内的模式表征；(𝑖𝑖)与DSN不同，我们使用更先进的分布相似度指标–CMD（见第3节。 5）而不是对抗性训练或MMD；（𝑖𝑖𝑖）我们在特定模态（私有）表征之间加入了额外的正交损失（见第3.5.2节）；（𝑖𝑣）最后，虽然DSN只使用共享表征进行任务预测，但MISA将不变的和特定的表征都用于融合和任务预测中。我们认为，利用这两种模态表征有助于通过提供多模态数据的整体视图来帮助融合。

3. 方法 3.1 任务设置

我们的目标是通过利用多模态信号来检测视频中的情感。数据中的每个视频被分割成其组成的语料（An utterance is a unit of speech bounded by breaths or pauses [34].），其中每个语料–一个较小的视频本身–被视为模型的输入。对于一个语篇𝑈，输入包括来自语言（𝑙）、视觉（𝑣）和声学（𝑎）模式的三个低层次特征序列。这些特征分别表示为U𝑙∈R𝑇𝑙×𝑑，U𝑣∈R𝑇𝑣×𝑑𝑣，以及U𝑎∈R𝑇𝑎×𝑑𝑎。这里𝑇𝑚表示话语的长度，如标记数（𝑇𝑙），对于模态𝑚，𝑑表示各自的特征维度。这些特征的细节将在第4.3节讨论

3.2 MISA

MISA的运作可分为两个主要阶段。模态表征学习（第3.3节）和模态融合 (第3.4节)。完整的框架如图2所示。

3.3 模态表征学习

语料层面的表述。首先，对于每个模态𝑚∈{𝑙, 𝑣, 𝑎}，我们将其语料序列U𝑚∈R 𝑇𝑚×𝑑𝑚映射到一个固定大小的向量u𝑚∈R 𝑚 。我们使用一个堆叠的双向长短时记忆（LSTM）[20]，其终结状态的隐藏表征加上一个全连接的密集层，可以得到u𝑚：

u m = sLSTM ⁡ ( U m ; θ m l s t m ) \mathbf{u}_{m}=\operatorname{sLSTM}\left(\mathbf{U}_{m} ; \theta_{m}^{l s t m}\right) um=sLSTM(Um;θmlstm)

模态不变和特定表示。我们现在将每个语料向量u𝑚投射到两个不同的表征上。首先是模态不变成分，它在一个具有分布相似性约束的共同子空间中学习一个共享表征[18]。这种约束有助于使异质性差距最小化–这是多模态融合的一个理想特性。其次是特定于模式的部分，它捕捉了该模式的独特特征。通过本文，我们认为，模态不变和特定表征的存在提供了有效融合所需的整体观点。学习这些表征是我们工作的主要目标。

鉴于模态𝑚的语料向量u𝑚，我们使用编码函数学习隐藏的模态不变（h 𝑐 𝑚∈R ℎ）和模态特定（h 𝑝 𝑚∈R ℎ）表示。

h m c = E c ( u m ; θ c ) , h m p = E p ( u m ; θ m p ) \mathbf{h}_{m}^{c}=E_{c}\left(\mathbf{u}_{m} ; \theta^{c}\right), \quad \mathbf{h}_{m}^{p}=E_{p}\left(\mathbf{u}_{m} ; \theta_{m}^{p}\right) hmc=Ec(um;θc),hmp=Ep(um;θmp)

为了生成六个隐藏向量h𝑝/𝑐𝑙/𝑣/𝑎（每个模式两个），我们使用简单的前馈神经层；𝐸𝑐在所有三个模式中共享参数𝜃 𝑐，而𝐸𝑝 为每个模式指定单独的参数𝜃 𝑝 𝑚。

3.4 模态融合

在将这些模态投射到它们各自的表征中后，我们将它们融合成一个联合向量，用于下游预测。我们设计了一个简单的融合机制，首先进行自我关注–基于Transformer[54]–然后将所有六个转换的模态向量连接起来

定义转化器。变换器利用了一个注意力模块，它被定义为一个缩放的点乘函数。

Attention ⁡ ( Q , K , V ) = softmax ⁡ ( Q K T d h ) V \operatorname{Attention}(Q, K, V)=\operatorname{softmax}\left(\frac{\mathrm{QK}^{T}}{\sqrt{d_{h}}}\right) \mathbf{V} Attention(Q,K,V)=softmax(dh QKT)V

其中，Q、K和V是查询、键和值矩阵。变换器计算多个这样的并行关注，其中每个关注的输出被称为头。𝑖 𝑡ℎ头的计算方法是

head i = Attention ( Q W i q , K W i k , V W W i v ) \text { head }_{i}=\text { Attention }\left(\mathrm{Q} W_{i}^{q}, \mathrm{KW}_{i}^{k}, \mathrm{VW} W_{i}^{v}\right) head i= Attention (QWiq,KWik,VWWiv)

𝑊 𝑞/𝑘/𝑣 𝑖∈R 𝑑ℎ×𝑑ℎ是头部特定参数，将矩阵线性投影到局部空间。

融合程序。首先，我们将六个模态表征（来自公式（2））堆叠成一个矩阵M = [h 𝑐 𝑙 , h 𝑐 𝑣 , h 𝑐 𝑎 , h 𝑝 𝑙 , h 𝑝 𝑣 , h 𝑝 𝑎] ∈ R 6×𝑑ℎ 。然后，我们对这些表征进行多头的自我关注，使每个向量都意识到同行的跨模式（和跨子空间）表征。这样做可以使每个表征从同伴表征中诱导出潜在的信息，这些信息对整个情感取向是有协同作用的。这种跨模态匹配在最近的跨模态学习方法中非常突出[22, 23, 27, 49, 57]。

为了自我注意，我们设定Q = K = V = M∈R 6×𝑑ℎ 。变换器生成一个新的矩阵M¯ = [h¯𝑐 𝑙 , h¯𝑐 𝑣 , h¯𝑐 𝑎 , h¯ 𝑝 𝑙 , h¯ 𝑝 𝑣 , h¯ 𝑝 𝑎] 作为。

M ‾ = MultiHead ( M ; θ a t t ) = ( head ⁡ 1 ⊕ ⋯ ⊕ head n ) W o \overline{\mathbf{M}}=\text { MultiHead }\left(\mathbf{M} ; \theta^{a t t}\right)=\left(\operatorname{head}_{1} \oplus \cdots \oplus \text { head }_{n}\right) W^{o} M= MultiHead (M;θatt)=(head1⊕⋯⊕ head n)Wo

其中，这里的每个头𝑖都是根据公式（4）计算的；⊕代表串联；𝜃 𝑎𝑡 = {𝑊 𝑞 ,𝑊 𝑘 ,𝑊 𝑣 ,𝑊𝑜 }。

预测/推理。最后，我们利用转化器的输出，用连接法构建一个联合向量，h𝑜𝑢𝑡 = [h¯𝑐 𝑙 ⊕ - - ⊕ h¯ 𝑝 𝑎 ] ∈ R 6𝑑ℎ。然后，任务预测由函数yˆ = 𝐺(h 𝑜𝑢𝑡; 𝜃 𝑜𝑢𝑡)生成。

我们在附录中提供了函数𝑠𝐿𝑆𝑇𝑀()、𝐸𝑐()、𝐸𝑝()、𝐺()和𝐷()（后面有解释）的网络拓扑结构。

3.5 学习

模型的整体学习是通过最小化来进行的。

L = L task + α L sim + β L diff + γ L recon \mathcal{L}=\mathcal{L}_{\text {task }}+\alpha \mathcal{L}_{\text {sim }}+\beta \mathcal{L}_{\text {diff }}+\gamma \mathcal{L}_{\text {recon }} L=Ltask +αLsim +βLdiff +γLrecon

这里，𝛼, 𝛽,𝛾是交互权重，决定了每个正则化成分对整体损失L的贡献，这些成分的损失都负责实现所需的子空间特性。我们接下来讨论它们。

3.5.1 Lsim–相似度损失

最小化相似性损失可以减少每个模态的共享表征之间的差异。这有助于将共同的跨模态特征在共享子空间中统一起来。在众多选择中，我们使用中心矩差（CMD）[63]指标来实现这一目的。CMD是一个最先进的距离指标，它通过匹配两个表征的顺序矩差来衡量它们之间的差异。直观地说，CMD距离随着两个分布的相似性而减少。

定义CMD。设𝑋和𝑌为有界随机样本，其概率分布为 𝑝和𝑞在区间[𝑎, 𝑏]上各自的概率分布。𝑁 . 中心矩差异正则CMD𝐾被定义为CMD的一个经验估计。经验估计的CMD度量, 其定义为

C M D K ( X , Y ) = 1 ∣ b − a ∣ ∥ E ( X ) − E ( Y ) ∥ 2 + ∑ k = 2 K 1 ∣ b − a ∣ k ∥ C k ( X ) − C k ( Y ) ∥ 2 \begin{aligned} C M D_{K}(X, Y) &=\frac{1}{|b-a|}\|\mathrm{E}(X)-\mathbf{E}(Y)\|_{2} \\ &+\sum_{k=2}^{K} \frac{1}{|b-a|^{k}}\left\|C_{k}(X)-C_{k}(Y)\right\|_{2} \end{aligned} CMDK(X,Y)=∣b−a∣1∥E(X)−E(Y)∥2+k=2∑K∣b−a∣k1∥Ck(X)−Ck(Y)∥2

其中，E(𝑋)=1 |𝑋 | Í 𝑥∈𝑋 𝑥是样本𝑋 的经验期望向量，𝐶𝑘(𝑋)=E(𝑥-E(𝑋))𝑘是𝑋 的坐标的所有𝑘 𝑡ℎ阶样本中心矩向量。

在我们的案例中，我们计算每对模态的不变表示之间的CMD损失。

L sim ⁡ = 1 3 ∑ ( m 1 , m 2 ) ∈ { ( l , a ) , ( l , v ) ( a , v ) } C M D K ( h m 1 c , h m 2 c ) \mathcal{L}_{\operatorname{sim}}=\frac{1}{3} \sum_{\substack{\left(m_{1}, m_{2}\right) \in \\\{(l, a),(l, v) \\(a, v)\}}} C M D_{K}\left(\mathbf{h}_{m_{1}}^{c}, \mathbf{h}_{m_{2}}^{c}\right) Lsim=31(m1,m2)∈{(l,a),(l,v)(a,v)}∑CMDK(hm1c,hm2c)

在这里，我们提出两个重要的看法：(𝑖) 我们选择CMD 而不是KL-发散或MMD, 因为CMD是一种流行的度量[36] 。因为CMD是一种流行的度量方法[36]，它可以对高阶时刻进行明确的匹配，而不需要昂贵的距离和核矩阵计算。(𝑖)对抗性损失是相似性训练的另一个选择，其中一个判别器和共享编码器进行一个最小化的博弈。然而，我们我们选择CMD是因为其简单的表述。相比之下，对抗性训练需要为判别器提供额外的参数以及额外的复杂性，如训练中的振荡[53]。

3.5.2 Ldiff - 差异损失

这个损失是为了确保模态不变的和特定的表征捕捉到输入的不同方面。非冗余性是通过强制执行两个表征之间的软正交性约束来实现的[5, 25, 47]。在一批训练语料中，让H𝑐𝑚和H𝑝𝑚为矩阵2，其行表示每个语料的模式𝑚的隐藏向量h𝑐和h𝑝𝑚。然后，这个模态向量对的正交性约束被计算为：。

这里，∥-∥2 𝐹是平方的Frobenius规范。除了不变向量和特定向量之间的约束外，我们还增加了特定模式向量之间的正交性约束。然后，整体差异损失被计算为：。

3.5.3 Lrecon - 重构损失

由于差分损失是强制执行的，所以仍然存在由特定模态编码器学习琐碎表征的风险。如果编码器函数近似于一个正交但不具代表性的模态向量，就会出现琐碎的情况。为了避免这种情况，我们增加了一个重建损失，以确保隐藏的表征能够捕捉到它们各自模态的细节。首先，我们通过使用解码器函数uˆ𝑚=𝐷(h 𝑐 𝑚 +h 𝑝 𝑚; 𝜃 𝑑)来重建模态向量。重建损失就是u𝑚和uˆ𝑚之间的平均平方误差损失。

L recon = 1 3 ( ∑ m ∈ { l , v , a } ∥ u m − u ^ m ∥ 2 2 d h ) \mathcal{L}_{\text {recon }}=\frac{1}{3}\left(\sum_{m \in\{l, v, a\}} \frac{\left\|\mathbf{u}_{m}-\hat{\mathbf{u}}_{m}\right\|_{2}^{2}}{d_{h}}\right) Lrecon =31 m∈{l,v,a}∑dh∥um−u^m∥22

其中，∥-∥2 2是平方的𝐿2-norm。

3.5.4 Ltask - 任务损失

特定任务损失估计训练期间预测的质量。对于分类任务，我们使用标准的交叉熵损失，而对于回归任务，我们使用平均平方误差损失。对于一个批次中的𝑁𝑏语料，这些损失的计算方法是：。

4. 实验

MISA

填充序列与反填充序列参考此文：

a = torch.rand(4) b = torch.rand(3) c = torch.rand(2) d = torch.rand(1) train_x = [a, b, c, d] seq_len = [s.size(0) for s in train_x] # 获取数据真实的长度 data = pad_sequence(train_x, batch_first=True) print(data) data = pack_padded_sequence(data, seq_len, batch_first=True) print(data) tensor([[0.8987, 0.9730, 0.5032, 0.5463], [0.6072, 0.4470, 0.1185, 0.0000], [0.8144, 0.0208, 0.0000, 0.0000], [0.4716, 0.0000, 0.0000, 0.0000]]) PackedSequence(data=tensor([0.8987, 0.6072, 0.8144, 0.4716, 0.9730, 0.4470, 0.0208, 0.5032, 0.1185, 0.5463]), batch_sizes=tensor([4, 3, 2, 1]), sorted_indices=None, unsorted_indices=None) 5. RESULTS AND ANALYSIS

【本文地址】

【20220705】文献翻译

【20220705】文献翻译

今日新闻

推荐新闻